Telegram Group & Telegram Channel
Авито открыл AI‑кухню на Data Fest 2025

Компания поделилась секретами работы над искусственным интеллектом.

Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.

Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.

А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.

Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.



tg-me.com/sqlhub/1910
Create:
Last Update:

Авито открыл AI‑кухню на Data Fest 2025

Компания поделилась секретами работы над искусственным интеллектом.

Особенно заинтересовал их подход к обучению собственной языковой модели. Их секрет ー собственный токенизатор, который эффективнее других моделей обрабатывает русскоязычные тексты на 29%. Это, кстати, дает генерацию текста в два раза быстрее зарубежных LLM на русском языке. Для обучения использовались и открытые датасеты, и обезличенные данные Авито и даже олимпиадные задачи.

Также в компании активно разрабатывают мультимодальную VLM A‑Vision с технологией автоматического распознавания символов в изображениях. В обучении использовали 200 тысячах реальных фото и миллион пар вопрос-ответ. При этом использовали большие языковые модели как «учителей» для автоматической генерации разметки.

А еще Авито упаковал весь ML‑цикл на единой ML‑платформе. Теперь все фичи, разметки, инференсы и обучение в одном месте. Как рассказали в Авито, главная цель платформы ー реализация no-code интерфейса, позволяющий запускать модели без программирования.

Кстати, над моделями 7B в Авито работают в том числе и стажеры, которые используют свежие научные данные и современные стеки, такие как LLM, LoRA, vLLM. Например, один стажерский проект по анализу звонков с помощью большой языковой модели сократил расходы на автоматическую проверку в 10 раз.

BY Data Science. SQL hub




Share with your friend now:
tg-me.com/sqlhub/1910

View MORE
Open in Telegram


Data Science SQL hub Telegram | DID YOU KNOW?

Date: |

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. “While doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.

Data Science SQL hub from ca


Telegram Data Science. SQL hub
FROM USA